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摘 要 


认 知 诊断 测评 中 缺失 数据 的 处 理 是 理论 和 实际 应 用 者 非常 关 注 的 研究 主题 。 借 鉴 随机 森林 择 补 法 (REFD 不 


依赖 于 缺失 机 制 假设 的 特点 ， 对 已 


的 RFI 方法 进行 改进 ,提出 采 / 


个 人 拟 合 指标 CD 确定 插 补 阔 值 的 新 方法 : 


随机 森林 羡 值 插 补 方法 (RFTD)。 模 拟人 研究 表明 ,RFTI 在 搬 补 正确 率 上 明显 高 于 RFI 方法 ; 与 RFI 和 EM 方法 相 比 ， 
RFTI 在 被 试 属性 模式 判 准 率 和 边际 判 准 率 上 表现 出 明显 优势 , 尤其 是 非 随机 缺失 和 混合 缺失 机 制 ， 以 及 缺失 比例 
较 高 的 条 件 下 ,其 优势 更 加 明显 。 但 对 项 目 参 数 的 估计 , RETI 方法 与 EM 方法 相 比 不 具有 优势 。 
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| 引言 


近年 来 , 教育 与 心理 评估 的 实践 越 来 越 关注 测 
评 结果 的 应 用 ， 随 着 信息 技术 的 发 展 和 精准 测评 服 
务 的 需求 ， 测评 日 益 融 入 日 党 的 教学 和 学 习 过 程 
(Bennett, 2010)。 认 知 诊断 测评 (cognitive diagnosis 
assessment，CDA) 通 过 被 试 在 测验 上 的 反应 模式 对 
其 特定 的 知识 结构 (knowledge structure) 和 加 工 技 
能 (processing skills) 进 行 评价 ， 而 推 知 被 试 的 知识 
IRS (knowledge state, KS)， 从 而 对 其 优势 和 劣势 提 
供 更 具 诊 断 性 的 信息 。 认 知 诊断 测评 由 于 其 在 测评 
结果 反馈 上 的 优势 备 受 研究 者 和 实践 应 用 者 的 青 
睐 ,然而 ,实际 测验 中 往往 不 可 避免 存在 缺失 数 
据 。 造 成 数据 缺失 的 原因 有 多 种 , 一 方面 测验 设计 
上 可 能 带 来 作答 数据 缺失 ， 例 如， 国际 大 规模 
PISA 测试 、 分 层 教学 等 个 性 化 学 习 的 测试 ， 每 个 学 
生 只 完成 全 部 测试 的 部 分 题目 ; 另 一 方面 ， 除 设计 
造成 的 缺失 数据 外 ,由 于 其 他 原因 产生 的 缺失 数据 
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也 很 常见 , 例如， 由 于 测验 时 间 限 制 或 测验 安全 方 
面 的 考虑 ， 以 及 测试 者 有 意 忽略 测验 中 某 些 题 目 等 
(Cheema, 2014; Mislevy & Wu, 1988; Pohl et al., 
2014; Rose et al., 2010)。 大 量 的 研究 证 实 不 同 缺失 
值 处 理 方 法 会 对 个 体 知识 状态 的 估计 精度 带 来 不 
司 影响 (Dai, 2017; Pan & Zhan, 2020)。 因 此 , 在 实 
bs CDA 测验 中 应 重视 缺失 数据 问题 ， 并 选用 合 
适 方法 处 理 ， 以 提升 诊断 精度 ( 宋 校 殉 等 , 2022)。 

根据 以 往 的 研究 ， 基于 认 知 诊断 模型 
(Cognitive Diagnosis Model, CDM) 的 缺失 数据 的 处 
理 方 法 , 大 多 借鉴 项 目 反 应 理论 (Item Response 
Theory, IRT) 模 型 中 处 理 缺 失 数据 的 方法 。 可 以 概括 
为 以 下 三 种 : (1) 传 统 的 缺失 值 删除 、 单 一 搬 补 或 替 
换 方 法 , 删除 方法 主要 包括 列 删 除 (Listwise) 和 对 
删除 (Pairwise)， 比 较 简 单 的 替换 方法 是 将 缺失 数 
据 直接 替换 为 0， 即 零 替换 方法 ; (2) 基 于 模型 的 处 
理 方法 ， 其 基本 思想 是 在 模型 参数 估计 的 过 程 中 通 
过 似 然 函数 处 理 缺 失 数 据 ， 其 中 典型 的 方法 有 期 望 
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最 大 化 算法 (Expectation-Maximization algorithm, 
EM) 和 全 息 极 大 似 然 估计 方法 (Full Information 
Maximum Likelihood, FIML); (3) 基 于 随机 分 布 假设 
的 多 重 插 补 方法 , 该 方法 的 基本 思想 是 基于 假设 的 
随机 分 布 对 缺失 数据 进行 多 次 随机 搬 补 ， 其 中 典型 
的 多 重 插 补 方法 包括 基于 回归 预测 值 分 布 的 多 重 
揪 补 。 研 究 者 结合 不 同 模型 ， 对 不 同方 法 的 表现 进 
行 了 比较 。Finch (2008) 结合 IRT 模型 ， 对 不 同 的 
缺失 数据 处 理 方法 进行 了 比较 , 结果 发 现 , 很 难 找 
到 一 种 方法 ， 其 表现 在 任何 情况 下 均 优 于 其 他 方法 ， 
不 同 的 方法 在 不 同 的 缺失 机 制 下 有 各 自 的 优 缺 点 。 


于 传统 的 缺失 数据 处 理 方 法 ， 基 于 模型 的 方法 更 有 
优势 (Schafer & Graham, 2002), 但 是 ， 这 类 方法 仍 
然 面 临 以 下 三 方面 的 问题 : (D) 已 有 的 缺失 数据 处 理 
方法 大 多 是 基于 完全 随机 缺失 (missing completely 
at tandom，MCAR) 和 随机 缺失 (missing at random, 
MAR) 机 制 假设 的 参数 插 补 的 方法 , 假设 条 件 和 模 
型 限定 较 多 , 不 能 有 效 处 理 非 随机 缺失 (missing not 
at random，MNAR) 或 混合 (MIXED) 机 制 下 (De 
Ayala et al., 2001) 的 缺失 类 型 (关于 缺失 机 制 的 介绍 
可 参考 Little 和 Rubin(2002)， 宋 枝 瑞 等 (2022) 或 本 
研究 模拟 设计 部 分 的 相关 内 容 )。 而 在 实践 中 , 学生 


Dai (2017) 首次 结合 认 知 诊断 DINA 模型 ,探讨 了 
零 替 换 、 个 体 均 值 插 补 法 、 两 步 插 补 法 、 反 应 函数 
法 (Response Function Imputation)#ll EM 算法 5 种 缺 
失 数 据 处 理 方法 在 不 同 缺失 比例 和 缺失 机 制 条 件 
下 对 项 目 参数 和 个 体 掌握 模式 的 影响 。 研 究 发 现 ， 
在 CDM 中 ,如 果 缺 失 数据 被 忽略 或 处 理 不 当 ， 则 
会 对 学 生 的 属性 掌握 模式 和 项 目 参 数 的 估计 带 来 
偏差 ; 相 比 其 它 4 种 方法 , EM 算法 得 到 的 个 体 属 性 
掌握 模式 的 判 准 率 最 高 ， 且 随 着 缺失 比例 增加 , EM 
算法 的 优势 更 加 明显 ; 对 于 项 目 参 数 的 估计 精度 ， 
则 没有 哪 种 方法 在 任何 情况 下 都 优 于 其 他 方法 ; 总 
体 而 言 ， 替 换 为 零 的 方法 和 个 体 均 值 插 补 法 对 于 
CDM 中 的 缺失 数据 处 理 不 是 好 的 选择 , EM 算法 相 
对 表现 最 优 。Dai 和 Svetina Valdivia (2022) 结 合 
DINA 模型 ， 比 较 了 包含 FIML 和 EM 算法 在 内 的 
10 种 缺失 数据 处 理 方法 的 表现 , 结果 发 现 FIML 和 
EM 算法 表现 类 似 。Pan 和 Zhan (2020) 在 随机 缺失 
机 制 的 假设 下 结合 追踪 CDM, 探讨 了 缺失 比例 和 
测验 长 度 的 影响 ,研究 发 现 缺失 比例 是 影响 参数 估 
计 和 诊断 结果 精度 的 最 主要 因素 ， 缺 失 比 例 超 过 
20%， 诊 断 结果 的 精度 就 会 明显 变 差 ， 针 对 缺失 比 
例 较 高 的 情况 (不 超过 40%)， 可 以 通过 增加 测验 长 
度 弥补 缺失 数据 带 来 的 不 利 影响 。 宋 枝 现 等 (2022) 
结合 GDINA 模型 ,在 完全 随机 缺失 、 随 机 缺失 和 
非 随机 缺失 的 条 件 下 ， 比 较 了 零 替 换 、 多 重 搬 补 
(Multiple Imputation, MI), EM 算法 和 FIML 方法 的 
T, 结果 发 现在 估计 个 体 知识 状态 时 ，EM 算法 
和 FIML 表现 较 好 ， 其 中 EM 表现 更 优 。 在 本 研究 
H, 我们 将 选择 表现 较 好 且 稳 定 的 EM 算法 与 新 提 
出 的 方法 进行 比较 。 

认 知 诊断 模型 中 缺失 数据 的 处 理 可 以 直接 借 
鉴 IRT 模型 中 缺失 数据 的 处 理 方 法 ， 其 研究 结论 也 
与 基于 IRT 模型 缺失 数据 的 处 理 方法 一 致 ， 即 相 比 


可 能 会 因 各 种 原因 漏 答 部 分 试题 ， 缺 失 数据 产生 原 
因 具 有 很 高 的 不 确定 性 和 复杂 性 ， 对 于 缺失 机 制 的 
判别 没有 明确 的 衡量 标准 (De Ayala et al., 2001). 探 
索 适 用 于 不 同 缺失 机 制 的 缺失 数据 处 理 方法 是 目 
前 尚未 很 好 解决 的 问题 之 一 , (2) 已 有 的 缺失 数据 处 
理 方法 无 法 有 效 处 理 缺失 比例 较 高 (>30%) 的 情况 。 
纵 观 以 往 对 缺失 数据 处 理 方法 的 模拟 研究 , 设 定 的 
缺失 比例 从 2% (De Ayala et al., 2001) 到 50% (Glas 
& Pimentel, 2008) 不 等 , 但 大 部 分 在 5% 到 30% 之 间 
(Finch，2008)。 已 有 的 缺失 数据 处 理 方法 在 缺失 比 
例 低 (小 于 20%) 时 表现 良好 ,但 在 缺失 比例 超过 
20% 时 应 用 效果 已 不 明显 。 缺 失 比 例 超 过 30% 以 上 
的 研究 不 多 见 ， 且 发 现 各 种 方法 的 估计 偏差 均 较 
Ko 然而 在 实践 中 一 些 测验 设计 导致 的 数据 缺失 比 
例 较 高 的 情况 并 不 少见 , 例如 大 规模 测试 中 常用 的 
分 块 设计 (fractional block design) (McArdle, 1994), 
平衡 非 完 全 分 块 螺旋 设计 (balanced incomplete 
blocks (BIB) spiral design) (Johnson, 1992) 等 常用 的 
矩阵 抽样 设计 的 方法 。 这 些 设计 中 缺失 数据 的 比例 
往往 超过 了 50% (Graham et al., 2006)。 因 此 ， 发 展 
能 够 较 好 处 理 高 比例 缺失 数据 的 方法 也 是 串 待 解 
决 的 问题 之 一 。(3) 随 着 认 知 诊断 理论 在 测评 中 的 应 
用 ,以 及 近年 来 教学 设计 的 改变 和 个 性 化 学 习 的 发 
展 (如 走 班 制 和 分 层 教学 )， 即 便 是 日 常 的 测评 也 不 
再 是 所 有 的 学 生 同 步 完 成 相同 的 练习 或 测试 ， 而 是 
对 不 同 的 学 生 进 行 有 区 别 的 评估 ; 同时 , 为 了 提高 
学 习 效率 , 教育 测评 实践 也 面临 着 如 何 基于 更 少 的 
题目 , 得 到 较为 精准 的 诊断 结果 的 问题 。 因 此 ， 如 
何在 不 增加 测验 题目 的 情况 下 ， 提 高 缺失 数据 处 理 
方法 的 精度 也 是 认 知 诊断 测评 的 实践 需要 。 
近年 来 ， 随 着 教育 测评 理论 和 人 工 智能 技术 的 
不 断 发 展 , IRT、CDM 与 机 器 学 习 相 关 技 术 的 结合 
应 用 越 来 越 受 到 国内 外 研究 者 的 关注 (Chen et al., 
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2018; Zhang & Chang, 2016; E, XJ £r 
云 ,2019)。 机 器 学 习 的 兴起 也 为 缺失 数据 的 处 理 带 
来 了 一 种 新 的 思维 范式 ， 即 将 数据 集中 的 缺失 值 作 
为 机 器 学 习 模 型 中 的 未 知 变量 ,将 数据 集中 的 具有 
特定 变量 观测 值 的 数据 样本 用 作 机 顺 学 习 模 型 的 
训练 集 ， 再 将 具有 缺失 值 的 数据 样本 输入 训练 后 的 
模型 ， 从 而 对 缺失 值 进行 插 补 Ciu & Gopalakrishnan, 
2017)。 已 有 研究 发 现 , 许多 机 器 学 习 技 术 非 常 适合 
处 理 缺 失 数据 的 问题 ， 并且 在 处 理 效果 上 比 经 典 的 
统计 处 理 技术 表现 得 更 好 (Mabrey, 2006). Stekhoven 
和 Bihlmann(2012) 在 随机 森林 算法 的 基础 上 提出 
了 随机 和 森林 插 补 (Random Forest Imputation, RFI, 
该 方法 是 针对 缺失 数据 处 理 提出 的 一 种 新 的 非 参 
数 插 补 方法 。RFI 方法 突出 的 特点 是 能 处 理 不 同类 
型 的 数据 ， 能够 利用 所 有 可 观察 到 的 数据 ,并 且 对 
数据 分 布 的 假定 前 提 条 件 很 少 。 由 于 RFI 方法 的 准 
确 性 和 稳健 性 等 诸多 优点 ， 它 已 在 一 些 复 杂 人 研究 中 
得 到 了 应 用 ( 沈 琳 等 , 2014)。 然 而 ,这 一 方法 与 测 
量 模型 的 结合 应 用 沿 属 空白 ,其 方法 的 适用 性 和 效 
果 尚 待 检验 。 

综 上 ,本 文 结 合 目前 CDA 实际 中 缺失 数据 处 
理 遇 到 的 困难 ,基于 RFI 的 基本 思想 ,提出 一 种 在 
CDM 模型 下 处 理 缺 失 数 据 的 新 方法 : 随机 森林 阔 
值 搬 补 Random Forest Threshold Imputation, RFTI) 
方法 。 并 通过 两 个 Monte Carlo 模拟 研究 验证 新 方 
法 的 表现 。 模 拟 研究 一 比较 不 同 缺失 机 制 和 不 同 缺 
失 比 例 条 件 下 , RFTI 相 对 RFI 方 法 对 缺失 数据 插 补 
正确 率 方面 的 优势 ， 以 验证 所 提出 动态 阔 值 方法 的 
必要 性 ; 模拟 研究 二 从 个 体 属 性 模式 判 准 率 和 项 目 
参数 估计 精度 两 方面 探讨 RETI 方法 的 表现 , 并 与 
传统 表现 较 好 的 EM 方法 和 RFI 方法 比较 , 探讨 
RFTI 的 优势 和 适用 条 件 。 


2 ”随机 森林 国 值 插 补 法 REFET) 的 提出 


本 文 的 主要 目的 是 提出 一 种 新 的 适合 于 CDM 
缺失 数据 的 处 理 方法 ， 即 随机 和 森林 阔 值 插 补 法 。 在 
介绍 新 的 方法 之 前 , 我 们 首先 介绍 本 文 所 使 用 的 认 
知 诊断 模型 其 次 介绍 已 有 的 REI 方法 ,并 对 其 局 
限 性 进行 分 析 ; 最 后 在 RFI AY Seah HE h CHE Bd 
的 随机 森林 立 值 插 补 法 ， 即 RFTI。 

2.1 认 知 诊断 模型 : DINA 模型 

DINA (Deterministic Inputs, Noisy “And” Gate 
Model，DINA) 模 型 是 一 种 非 补偿 的 认 知 诊断 模型 ， 
其 中 “ 非 补偿 ”是 指 属性 之 间 不 具有 互补 性 ,被 试 只 


有 完全 掌握 项 目 所 需 的 所 有 属性 才能 正确 答对 该 
项 目 。 由 于 DINA 模型 本 身 的 定义 简单 ， 每 个 参数 
对 应 的 含义 具有 可 解释 性 的 特点 ， 近 年 来 被 广泛 应 
用 于 认 知 诊断 模型 相关 的 理论 研究 和 实际 应 用 研 
究 。 例 如 : 关于 项 目 属性 辅助 标定 ( 汪 文 义 ，2012)， 
含 认 知 诊断 功能 的 计算 机 化 自 适应 测验 的 项 目 增 
补 ( 陈 平 , 辛 涛 ,2011), 错误 定义 的 Q 和 矩阵 下 被 试 分 
类 准确 性 ( 喻 晓 锋 ^x, 2014), 以 及 与 其 他 分 类 模型 
结合 的 问题 ( 罗 照 成 As, 2015), 这 些 新 方法 的 探索 
均 是 基于 DINA 模型 开展 的 拓展 人 研究。 本 人 研究 我 们 
也 将 基于 DINA 模型 探讨 不 同 缺 失 数 据 处 理 方法 的 
表现 ,下 面 ,首先 简要 介绍 常用 的 DINA 模型 。 

以 0-1 计 分 的 题目 为 例 , DINA 模型 的 定义 如 下 : 

已 (w)= P(X; -1]aj) = 


ly 1-5.) = 8j fhi = 
8j ( S;) = 1-5. fn =4 
J y 


(1) 


Kb, s, 为 第 j 个 题目 对 应 的 失误 参数 (slipping 
parameter)， 其 值 介 于 0 和 1 之 间 , 用 来 描述 被 试 在 
题目 7 上 失误 的 概率 ， 即 被 试 在 完全 掌握 了 题目 j 
所 需 属性 的 条 件 下 , 但 是 没有 正确 回答 该 题目 的 条 
件 概 率 。8 /为 第 7 个 题目 对 应 的 猜测 参数 (guessing 
parameter), 其 值 也 介 于 0 和 1 之 间 , 与 sj 参数 相反 ， 
描述 的 是 被 试 猪 对 第 j 个 项 目的 概率 ， 即 被 试 没有 
完全 掌握 该 项 目 考 核 的 所 有 属性 的 条 件 下 , 但 答对 
了 该 项 目的 条 件 概 率 。w; 表示 知识 掌握 状态 向 量 或 
属性 掌握 模式 向 量 ， 其 中 的 元 素 ag, 表示 被 试 ? 是 否 
掌握 属性 k, 如 果 掌 握 wx =1, 否则 aj =0 ° WR 
W i 的 属性 掌握 模式 为 a,， 其 在 题目 j 上 的 理想 反 
应 模式 可 以 表示 为 : 


K 
my = | Ies (2) 
k=1 


HB, qug Q FEM Op na A j UTE k AL, dn 
RAH j 考核 了 属性 大 Way, =1, 否则 gj =0; Q 
和 矩 阵 为 描述 测验 题目 与 属性 之 间 关 系 的 矩阵 ( 丁 树 
良 等 , 2012)。 
2.2 ”随机 森林 插 补 法 

RFI 是 由 Stekhoven 和 BühImann (2012) 提 出 的 
一 种 新 的 非 参 数 插 补 方法 (也 称 missForest 算法 )， 
该 方法 的 基本 思想 和 步 又 如 下 。 

假设 一 个 nxm 的 数据 集 , n 表示 被 试 的 个 数 , m 
为 变量 的 个 数 ， 即 测验 中 包含 的 题目 数 。 用 
X 2(X,,X5,-- X, ) AR BUR VER BEE, OX, 为 
任意 一 个 可 能 存在 缺失 值 的 变量 ，i(0 e(12,.m 
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X X, 上 包含 缺失 值 的 被 试 集合 。 可 以 将 其 分 成 4 
部 分 : 

OHIO RE X, KWE, BIRA 的 之 外 
的 被 试 在 x, 上 的 观测 数据 ; 

(2) 用 yO RR X, WRIA, BA MO E x, 
上 的 未 观测 到 的 数据 ; 

OH x) 表示 x, 上 无 缺失 的 被 试 在 X, 以 外 
所 有 变量 上 的 数据 ， 即 除 所 有 多 之 外 的 被 试 在 除 
X, 以 外 的 其 他 所 有 变量 上 的 数据 (可 能 含 缺 失 ， 因 
为 芍 只 是 在 变量 世上 没有 观测 值 ); 

(JH x) ER x, 上 有 缺失 的 被 试 在 X, 以 外 
所 有 变量 上 的 数据 , 即 所 有 (Ü ve x, 之 外 的 其 他 所 
有 变量 上 的 数据 (也 可 能 不 含 缺失 )。 

采用 随机 森林 对 缺失 数据 进行 插 补 时 , 将 变量 
x, 上 没有 缺失 的 个 体 数据 , 即 y 和 xm ， 作 为 随 
机 森林 的 训练 样本 集 ， 得 到 预测 模型 ， 再 基于 预测 
模型 对 缺失 数据 yO 进行 插 补 。 具 体 的 插 补 步 又 如 下 : 

首先 ,采用 传统 的 缺失 数据 插 补 方法 ， 如 均 数 
插 补 法 计算 成 中 所 有 缺失 值 的 初 值 ， 然后 按照 缺 
失 值 的 数量 升序 将 所 有 含 缺 失 的 变量 总 进行 排序 ， 
得 到 的 结果 的 抢 阵 记 为 X ,将 其 赋值 到 矩阵 


start 
imb 
old ? 


其 次 , 对 于 每 一 个 变量 局 ， 使 用 随机 森林 算 
法 对 缺失 数据 进行 持 补 ， 分 为 如 下 两 步 : 第 一 步 ， 
用 因 变 量 y 外 和 自 变量 xz 多 训练 出 一 个 yor 的 
随机 森林 模型 ; 第 二 步 , 将 x 由 作为 特征 变量 输入 ， 
用 训练 出 的 随机 森林 模型 预测 缺失 值 yO) 。 对 所 有 
X, 预测 插 补 完成 后 ,所 得 到 的 矩阵 记 为 Ximp 。 

定义 收敛 指标 , 这 里 的 收敛 指标 是 指 迭 代 中 插 


补 值 变化 的 情况 小 于 某 个 标准 y， 对 于 离散 型 变量 ， 


表示 插 补 值 变 化 的 指标 的 计算 公式 为 : 


D 2 xi xn 
A İSE i=l 3 
pet G) 


其 中 ，F 表 示 两 次 迭代 中 被 插 补 数据 的 集合 ， 为 
Bh, qx T IAME ME X» 5j X"? 相 比 第 iT 
第 7 列 的 值 是 否 发 生变 化 , 若 变化 则 记 为 1， 否则 记 
为 0， 因 此 上 式 中 的 分 子 表示 两 次 迭代 之 间 发 生变 
化 的 搬 补 值 个 数 ，# NA 是 在 离散 变量 中 总 的 缺失 
值 数 量 (Stekhoven & Bühlmann, 2012), Ap 描述 了 
前 后 两 次 插 补 值 变化 的 个 数 占 总 缺失 数据 个 数 的 
比例 , 值 越 小 表示 两 次 迭代 得 到 插 补 数据 集 的 差异 
越 小 。 

判断 XP Ej XP 的 差异 Ar 是 否 满足 迭代 停 


c 


止 标准 y， WER Ap 的 值 满 足 迭 代 停 止 标准 y DIR 
XX? 作为 最 终 的 插 补 结果 ; 否则 ， 用 本 次 插 补 得 到 
WHERE XP ded XI RER ENR ERE 
程 ,直到 满足 迭代 停止 标准 或 达到 最 大 允许 迭代 次 
数 。 本 研究 中 , 我 们 参考 Stekhoven (2013) 的 研究 , 将 
y 值 设 定 为 0.05, 最 大 允许 迭代 次 数 设 定 为 100 次 。 

对 于 0-1 计 分 的 题目 , RFI 在 对 缺失 数据 进行 插 
补 时 ， 首 先 对 于 每 一 个 缺失 的 未 观测 值 ， 得 到 一 个 
处 在 [0,1] 区 间 内 的 概率 值 , 用 于 表示 该 缺失 数据 取 
值 为 1 的 概率 。 该 概率 值 越 接近 于 1 表示 当前 未 观 
测 值 为 1 的 概率 越 大 , 该 概率 值 越 接 近 于 0 则 表示 
当前 缺失 数据 取 值 为 0 的 概率 越 大 。 以 0-1 计 分 的 
题目 为 例 ,实际 应 用 中 通过 一 个 选 定 的 概率 阔 值 ， 
将 所 得 概率 值 转换 为 0-1 的 二 分 值 。RFI 方法 一 般 
将 概率 阔 值 设置 为 0.5， 即 当 计 算出 的 概率 值 大 于 
0.5 时 , GRAN 1; 当 概 率 值 小 于 0.5 H, 
将 缺失 值 奉 换 为 0; 当 概率 值 正好 等 于 0.5 的 时 候 ， 
缺失 值 随 机 替换 为 0 或 1。 不 难 理解 ,不 考虑 教育 
测评 的 实际 背景 , 在 概率 值 为 0.5 左右 时 , 无 论 将 
缺失 值 替换 为 0 或 者 1, 缺失 值 被 错误 持 补 的 概率 
都 非常 大 ， 因 为 此 时 模型 所 做 预测 的 不 确定 性 非常 
大 。 如 果 结 合 教育 测评 实际 ， 当 概率 值 在 0.5 或 以 
下 时 ， 认 为 其 作答 错误 ( 即 蔡 换 为 0) 是 比较 合理 的 ; 
然而 ， 如 果 将 概率 值 在 0.5 以 上 的 都 插 补 为 1， 则 对 
于 0-1 计 分 的 题目 就 过 于 宽松 了 。 另外, REI EE B 
值 的 方法 没有 考虑 缺失 数据 插 补 过 程 中 ,由 于 插 补 
不 准确 性 所 带 来 的 模型 与 数据 拟 合 假设 被 违背 的 
问题 。 鉴 于 此 , 我们 提出 修正 的 动态 阔 值 的 随机 森 
林 插 补 方法 。 
2.3 ”随机 森林 阅 值 插 补 方法 
2.3.1 ” 认 知 诊断 模型 的 个 人 拟 合 指数 与 阅 值 选择 

本 文 提 出 的 随机 森林 阔 值 插 补 方法 的 基本 思 
想 为 ,在 随机 森林 插 补 法 的 基础 上 设 定 两 个 概率 效 
值 ， 其 中 将 概率 转换 为 0 的 第 一 个 阔 值 仍然 采用 
0.5， 而 将 概率 转换 为 1 的 第 二 个 阐 值 采用 结合 模型 
TI E ERES HAS BU. 我 们 将 个 人 拟 合 指数 应 用 于 
OAS BELAY AE o 

Cui 和 Li (2015) 将 被 试 理想 反应 与 观察 反应 之 
间 的 关系 作为 认 知 诊断 模型 的 个 人 拟 合 的 指标 ， 提 
出 采用 反应 一 致 性 指标 (the response conformity 
index, RCI) 描 述 学 生 的 观察 反应 与 基于 QQ 矩阵 得 出 
的 期 望 理想 反应 之 间 的 一 致 性 。RCI 的 具体 计算 方 
法 如 下 : 


Xj; (a) 
n| X; -P(e) | ' 
I;(a;) - P;(a;) 


其 中 , m AM, Xy HBR TESS j 道 试题 
上 的 真实 作答 (i=1,2,…,n;j=1,2,…,m),ai 表示 被 
试 i 的 属性 掌握 模式 ，P(a) 表示 属性 掌握 模式 为 
a; 的 被 试 正确 作答 试题 ; 的 概率 ，7j(a;) 为 属性 掌 
握 模 式 为 w 的 被 试 在 试题 /上 的 理想 作答 反应 ,对 
于 DINA 模型 BIA njo 1;(a;) 的 值 等 于 0 或 者 1， 
完全 依赖 于 aj 是 否 完全 包含 被 试 作答 试题 所 需要 
的 所 有 属性 ， 作 答 试 题 j 所 需要 的 属性 由 Q 矩阵 决 
定 。 当 wi 包含 作答 试题 j 所 需要 的 所 有 属性 时 ， 
La) 的 值 为 1; 当 wi 不 包含 作答 试题 j 所 需要 的 
所 有 属性 时 ，Jj;(a;) 的 值 为 0. 在 实际 的 情况 下 ,被 
试 的 真实 掌握 模式 w 无 法 知晓 ， 因 此， 在 计算 的 时 
候 采 用 估计 得 到 被 试 的 属性 掌握 模式 w o 
1 公式 (4) 可 以 看 出 , RCI 指标 描述 的 是 被 试 的 
实际 作答 反应 X; 与 被 试 的 理想 反应 万 (w) 之 间 的 
偏离 程度 。 被 试 的 观察 反应 与 理想 反应 差异 越 大 ， 
RCI 的 值 越 大 。 因 此 ， 从 理论 上 讲 ， 缺 失 数据 搬 补 
的 正确 率 越 高 ， 观察 反应 与 理想 反应 越 一 致 RCI 
的 值 就 越 小 ; 而 缺失 数据 正确 率 越 低 ，RCI 的 值 就 
越 大 。 因 此 可 以 将 RCI WA S b lE DALAI Fe] E TE 
价 标准 以 及 对 缺失 数据 插 补 的 终止 标准 。 即 通过 重 
复 计算 不 同 阔 值 插 补 数据 集 所 对 应 的 个 人 拟 合 指 
BE, 将 个 人 拟 合 统计 量 的 最 优 值 所 对 应 的 搬 补 作答 
矩阵 作为 最 终 的 插 补 结果 ， 与 之 对 应 的 阔 值 即 为 重 
复 过 程 中 最 终 确 定 的 第 二 个 阔 值 。 
1 于 RCI 指标 适用 于 所 有 明确 定义 项 目 反 应 
PR P, (a) 的 认 知 诊断 模型 ， 例 如 GDINA, RUM 
等 模型 (Cui & Li, 2015)。 因 此 ， 上 述 提出 的 采用 个 
人 拟 合 指数 RCI 确定 动态 冰 值 的 思想 也 同样 适用 
于 所 有 明确 定义 项 目 反 应 函数 的 认 知 诊断 模型 。 下 
面 为 了 叙述 清晰 ， 以 DINA 模型 为 例 介 绍 随机 森林 
闵 值 插 补 法 的 步骤 。 
2.3.2 ”随机 森林 阅 值 插 补 法 的 步骤 

首先 , 采用 RFI 方 法 得 到 每 一 个 缺失 数据 插 补 
的 概率 值 。 第 一 概率 阔 值 为 0.5， 设 第 二 概率 阔 值 为 
z (用 户 设 定 0.5 到 1 之 间 的 数值 )。 当 RFI 方法 得 
到 的 持 补 概率 值 p 大 于 等 于 rt 时， 对 应 缺失 值 位 置 
插入 数值 1; 当 概 率 值 bp 小 于 等 于 0.5 的 时 候 ， 对 应 
的 缺失 值 位 置 插入 数值 为 0;， 当 概率 值 p 小 于 z+ 并 
且 大 于 0.5 的 时 候 ， 对 应 的 缺失 值 位 置 保留 缺失 ， 
不 作 插 补 。 具 体 如 下 所 示 : 


(4) 


n 


游 晓 锋 等 : VAS WT PEAR BE AAD SB BRAK BS ELT ANE 5 
1 Pj ZT 
Xj =1NA 0.5< pj <T (5) 
0 py 0.5 


其 中 ，X; 为 第 i 个 被 试 在 第 j 道 试题 上 的 插 补 结果 ， 
Py 为 第 i 个 被 试 在 第 j 道 试题 上 RFI 的 概率 值 , NA 
表示 缺失 ，z 为 概率 闵 值 。 通 过 公式 (5) 的 计算 之 后 
可 以 得 到 对 应 概率 阔 值 z 的 作答 矩阵 。 

然后 , 采用 DINA 模型 估计 得 到 每 个 被 试 的 属 
性 掌握 模式 , 计算 相应 的 RCI 个 人 拟 合 指数 。 由 于 
揪 补 后 的 作答 矩阵 丈 仍 然 有 少量 缺失 ,为 了 消除 
缺失 数据 的 影响 ,对 RCI 指数 计算 公式 进行 校正 ， 
并 对 其 求 均值 ， 具体 校正 后 的 公式 如 下 
| [enn 

I,(a;) - P,(a;) 


mean _ RCI, = 


— (6) 


RP m; 2958 i BRA FD it AE i IAS RS TT C 


mi; 的 取 值 介 于 0 I m Ziel, BIO « m; X m « 之 后 对 
所 有 被 试 求 得 mean_RCI, 的 均值 ， 即 为 当前 概率 
BE r 所 对 应 的 拟 合 评价 指标 。 在 缺失 值 插 补 的 过 
程 中 ,对 于 7 取 不 同 的 值 ， 根据 公式 (6) 计 算 相 应 的 
mean _ RCI, 的 均值 ， 最 后 选取 使 得 mean_RCI; 的 
均值 最 小 的 = 作为 最 终 缺 失 数 据 插 补 的 第 二 个 概 
率 阔 值 。 

具体 实现 过 程 中 , BEL 的 取 值 在 0.5-1 20), nf 
按照 步 长 6( 研 究 者 自 定 义 ， 如 5= 0.01) 递 增 , 可 以 得 到 
7 个 不 同 的 立 值 (例如 ， 当 6 = 0.01 时 ,了 = 50)。 根 据 不 
[dif (= 1,2, T ) 插 补 , 得 到 了 个 插 补 后 的 作答 
AE x (r2 2, T), SEF XO, 根据 公式 (6) 可 以 
计算 得 到 被 试 丰 的 个 人 拟 合 指数 mean — RCI, 计 
算 其 均值 mean _ RCI) - S mean _ nci? /no 在 KK 个 


拟 合 指标 中 选取 最 小 的 mean_RCL, = 
min(mean | RCI) ,将 mean _ RCI „in 对 应 的 阔 值 作 
为 最 后 确定 的 阔 值 ， 其 对 应 的 插 补 后 的 作答 天 阵 
对 作为 最 终 的 插 补 后 的 作答 数据 。 实 际 中 ,根据 插 
补 的 目的 我 们 只 需要 最 后 的 插 补 数据 集 即 可 。 
2.3.3 ”随机 森林 阅 值 插 补 法 的 算法 实现 

采用 及 语言 来 实现 随机 和 森林 阔 值 揪 补 方法 ， 其 
具体 的 算法 步 又 如 下 : 

(导入 带 有 缺失 值 的 作答 矩阵 数据 集 ， 设 为 
missData; 

(DEWR PTE AIA, 值 的 默认 
范围 为 0.5-1， 默 认 步 长 为 0.01; 
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(3) missData 数据 集 赋 值 给 oldData; 

(4) 采 用 missForest 算法 对 oldData 中 的 缺失 值 
进行 插 补 ， 得 到 带 有 搬 补 概率 值 的 矩阵 imputeData; 

(5) 根 据 概 率 阔 值 z 对 imputeData 作答 矩阵 重新 
赋值 ， 将 其 转换 为 新 的 作答 矩阵 数据 集 newData。 

(6) 比 较 oldData 与 newData， 如 果 oldData 和 
newData 两 个 作答 矩阵 不 完全 相同 ， 则 将 newData 
数据 集 赋值 给 oldData, 重复 第 (4)(3) 步 ， 直 到 
oldData 与 newData 完全 相同 ， 迭 代 终 止 ; 

(7) 对 最 终 的 newData 数据 集 ， 采 用 EM 方法 估 
计 DINA 模型 的 项 目 参 数 , 采用 MAP 方法 估计 被 
试 的 掌握 模式 ， 并 计算 出 所 有 被 试 个 人 拟 合 指标 
mean RCI 的 均值 ; 

(8) 重 复 (2)-(7) 步 , YET BER BER BL EE c 对 应 的 
个 人 拟 合 指标 mean RCI 的 均值 。 

(9) 找 出 最 小 的 个 人 拟 合 指标 mean _ RCT 均值 
所 对 应 的 最 终 作 答 和 矩阵 newData 数据 集 作 为 最 终 输 
出 的 插 补 结果 数据 集 。 

JEP LER, 我们 在 R 语言 平台 R-3.5.3 版 
本 上 自 编 了 missForestDINA PRA, WAFER IE 
和 应 用 者 使 用 本 人 研究 提出 的 方法 。 使 用 时 需 事先 安 
装 RFI 方法 的 missForest 包 (Stekhoven，2013) 和 用 
于 认 知 诊断 模型 参数 估计 和 数据 分 析 的 CDM 包 
(George et al., 2016) ， 然 后 调用 missForestDINA 的 
EPR. missForestDINA EZ KAO: 

missForestDINA (missData, Q, stepV = 0.01). 
其 中 missData 为 输入 的 不 完整 数据 集 , Q 为 认 知 诊 
断 模型 对 应 的 Q 和 矩阵 , stepV 为 迭代 步 长 ， 函 数 返 回 
的 是 插 补 后 的 数据 集 。missForestDINA 包 的 使 用 非 
常 方便 ， 使 用 者 只 需要 读 入 含有 缺失 数据 的 文件 和 
CDM 的 Q 矩阵 ,并 设置 好 搜索 最 小 RCI 值 的 迭代 
步 长 ,就 能 得 到 插 补 到 的 数据 集 。 

值得 说 明 的 是 ， 以 上 随机 森林 阔 值 插 补 方法 的 
步 又 和 算法 实现 虽 以 DINA 模型 为 例 , 但 是 这 一 方 
法 本 身 并 不 局 限于 DINA 模型 ， 对 于 明确 定义 了 项 
目 反应 函数 的 认 知 诊断 模型 ， 只 需 将 上 述 公 式 (6) 中 
的 P, (a) 蔡 换 为 对 应 的 模型 即 可 。 这 一 方法 不 仅 适 用 
于 大 多 数 的 认 知 诊断 模型 ， 而 且 适 应 于 同一 测验 中 
的 各 个 项 目 拟 合 模型 可 能 不 同 的 情况 , 例如 , 在 同一 
个 测验 中 ， 有 些 项 目 适合 DINA， 而 有 些 项 目 适 合 
A-CDM,， 有 些 项 目 则 可 能 适合 GDINA 模型 等 (Liu 
et al., 2019; XIERE 等 , 2019)， 此 时 ， 则 需 将 对 应 
项 目的 P(w) 替换 为 相应 所 适合 认 知 诊断 模型 的 
项 目 反 应 函数 。 总 而 言 之 ， 基 于 认 知 诊断 测评 模型 


提出 的 随机 森林 阔 值 搬 补 法 具有 较 广 泛 的 适用 性 。 


3 研究 1: 随机 森林 国 值 插 补 方法 
的 插 补 紊 和 正确 率 


从 RFTI 的 步骤 和 公式 (5) 可 以 看 出 , 该 方法 和 
其 他 的 缺失 数据 处 理 方法 不 同 , 它 是 一 种 非 完全 的 
插 补 方法 。 虽然 插 补 后 的 数据 集 仍 可 能 包含 一 定 比 
例 的 缺失 数据 , 但 是 我 们 预期 这 一 部 分 的 比例 应 该 
BUR, 在 后 续 分 析 中 可 以 采用 简单 默认 的 缺失 数据 
处 理 。 另 外 , 我 们 预期 动态 阔 值 的 插 补 方法 相对 于 
RFI 方法 有 较 高 的 插 补 正确 率 。 为 了 验证 我 们 的 预 
Hj, 研究 1 的 主要 目的 是 , 探讨 在 不 同 的 缺失 机 第 
和 缺失 比例 的 情况 下 , RETI 方法 的 插 补 正确 率 ， 以 
及 插 补 后 数据 集 的 缺失 比例 ， 并 将 其 插 补 结果 直接 
与 RFI 法 进行 比较 。 
3.1 ”数据 缺失 机 制 

研究 1 考虑 的 主要 影响 因素 为 数据 的 缺失 机 向 
和 缺失 比例 。 

() 数 据 缺 失 机 制 : 考虑 MIXED ,MNAR,.MAR 
和 MCAR 四 种 缺失 数据 的 机 制 。 

Qi EL fil: 本 实验 借鉴 以 往 研 究 对 缺失 比 
例 的 设置 条 件 (Dai, 2017) 以 及 实际 测验 可 能 面临 的 
情况 ,考虑 10%、20%、30%、40%、50% 五 种 不 同 
的 缺失 比例 。 

因此 , 共有 4x5-20 种 实验 条 件 ， 每 种 组 合 的 条 
TFT, 重复 模拟 生成 100 个 符合 条 件 的 被 试 作 答 数 
据 集 。 再 针对 每 个 数据 集 分 别 使 用 RFI 和 RFTI 两 种 
缺失 数据 处 理 方法 对 缺失 数据 进行 插 补 ， 主 要 借助 
missForest 软件 包 和 自 编 missForestDINA 函数 实现 。 

参考 已 有 的 认 知 诊断 相关 文献 ， 其 他 条 件 设 定 
如 下 。 大 多 数 研究 设 定 的 属性 个 数 为 6 个 (Cheng, 
2010; Gierl et al., 2011)， 因 此 本 实验 的 属性 个 数 
设置 为 6 个 。de la Torre 等 (2010) 在 研究 样本 量 
DINA 模型 参数 估计 的 影响 时 , 使 用 的 样本 量 
500, 1000, 2000, 4000 四 个 水 平 , 结果 发 现 ， 当 
样本 量 为 1000 时 , DINA 模型 能 得 到 非常 精确 的 参 
数 估计 。 本 研究 将 样本 量 设置 为 1000, 题目 数 设 置 
为 中 等 长 度 30。 假设 属性 间 不 存在 层级 关系 ,试题 
属性 分 配方 式 是 随机 的 , 但 是 每 个 属性 至 少 存在 1 
个 测量 单一 属性 的 题目 , 每 个 属性 至 少 有 3 个 题目 
测量 以 保证 模型 可 识别 (Xu & Zhang, 2016)。 
3.2 ”数据 生成 
3.2.1 参数 生成 

(1) 被 试 知识 状态 


= 


= 
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被 试 知识 状态 的 生成 依赖 于 多 元 离散 均匀 分 
布 和 多 元 标准 正 态 阔 值 模型 (Multivariate Normal 
Threshold Model). Xt FZ Jun VE IE AS BIERA, je 
根据 多 元 标准 正 态 分 布 , 模拟 生成 各 被 试 在 各 属性 
上 的 随机 数 0~ MVN(0 S), 其 中 协 方差 阵 王 中 主 


对 角 线 元 素 全 为 1， 其 他 元 素 全 设 为 0.5。 然后 根据 
属性 阔 值 对 连续 的 随机 数 Op 进行 0-1 化 ， 得 到 被 试 
i 对 属性 的 掌握 状态 ay, ARU F: 


1 Oy zal 


7 
K+l ( ) 
0 other wise 


FOR =1,2,…,n,k=1,2,…,K,@-1 为 标准 多 元 正 态 分 
布 的 着 累积 分 布 函 数 ， 表 示 累 计 概 率 为 < 对 应 


的 向 量 。 

(2) 项 目 参 数 

DINA 模型 中 的 猜测 参数 g 和 失误 参数 s 均 从 
均匀 分 布 中 抽取 ， 取 值 区 间 为 [0.05, 0.25]。 
3.2.2 ”完整 作答 数据 的 生成 

采用 Monte Carlo 模拟 方法 ,首先 生成 被 试 的 
知识 状态 (掌握 模式 ) 真 值 a, 项 目 参数 真 值 (s 和 g) 
以 及 Q 抢 阵 。 为 了 保证 模型 可 识别 , 在 设 定 Q 矩阵 
时 ， 我 们 根据 Xu Fil Zhang (2016) 的 研究 ， 首先 随机 
生成 只 测量 天 个 属性 中 某 个 单一 属性 的 天 道 项 目 ， 
即 在 Q 和 矩阵 中 存在 一 个 KxK 的 单位 矩阵 ; 其 次 ， 对 
于 其 他 项 目 所 测量 的 属性 ， 要 求 每 个 属性 至 少 还 有 
2 个 项 目测 量 这 一 属性 , 但 是 同一 项 目 可 同时 测量 
多 个 属性 。 然 后 根据 DINA 模型 的 项 目 反 应 函数 
模拟 生成 被 试 的 作 管 数据 集 。 具 体 来 说 , 模拟 生成 
被 试 i 在 项 目 j/ 上 的 得 分 时 , 依据 DINA 的 项 目 反 
应 函数 计算 其 正确 作答 概率 P(a;) ,然后 产生 服从 
U(0, 1) 分 布 的 随机 数 r, 如果 > P(w)， 则 被 试 i 
在 项 目 j/ 上 的 得 分 为 0， 否则 得 分 为 1。 
3.2.3 ”缺失 数据 的 生成 
1 于 使 用 RFI 或 RETI 方法 进行 插 补 时 ,需要 
首先 基于 目标 变量 上 未 缺失 被 试 的 数据 训练 模型 ， 
因此 ， 对 于 生成 的 完整 作答 数据 ， 从 中 随机 选取 
80% 的 被 试 作答 数据 用 于 生成 缺失 数据 , R E 20% 
的 被 试 保留 完整 数据 集 ， 作 为 随机 和 森林 的 训练 样本 
集 。 需 要 说 明 的 是 ， 实 际 中 完整 的 训练 数据 集 并 非 
必须 的 (Stekhoven, 2013)。 

(1) MCAR 缺失 数据 的 生成 

MCAR 缺失 机 制 指 的 是 数据 的 缺失 是 完全 随 
机 的 , 不 依赖 于 任何 变量 ， 即 不 论 其 它 变 量 (如 题 


Ci = 


目 难度 、 区 分 度 、 被 试 能 力 值 等 ) 如 何 变化 ,数据 产 
生 缺 失 的 概率 都 是 均等 的 。 根 据 MCAR 的 定义 ， 
MCAR 数据 的 生成 是 一 个 完全 随机 的 过 程 ， 当 数 
据 总 体 缺 失 比 例 确 定 以 后 , 可 以 通过 产生 随机 数 的 
方式 来 确定 被 试 及 某 一 题目 的 缺失 ， 缺 失 的 产生 并 
不 依赖 于 被 试 的 能 力 及 项 目 本 身 。 例 如 ， 当 数据 总 
体 缺 失 比例 被 设置 为 30% 的 时 候 ， 针 对 每 个 被 试 在 
每 道 试题 上 的 作答 都 生成 一 个 0 和 1 之 间 的 随机 数 
r 来 判断 当前 作答 是 否 被 设置 为 缺失 ， 当 随机 数 r 
小 于 缺失 比例 0.3 时 ， 试 题 作 答 被 设置 为 缺失 。 由 
R 语言 missForest 包 中 的 prodNA 也 数 具 体 实现 该 
过 程 。 

(2) MAR 缺失 数据 的 生成 

MAR 缺失 机 制 指 的 是 数据 缺失 的 概率 不 是 随 


机 的 , 会 受到 数据 集中 已 观测 到 的 其 他 变量 的 影响 ， 


但 不 受 缺 失 数据 自身 的 影响 。 根 据 MAR 的 定义 ， 
MAR 数据 的 生成 借鉴 De Ayala 等 人 (2001) 及 Peugh 
和 Enders (2004) 提 出 的 方法 。 首 先 , 计算 除 目 标题 
目 外 ， 每 个 被 试 的 正确 作答 题目 个 数 ; 然后 ,依据 
被 试 的 得 分 确定 每 个 被 试 作答 的 缺失 比例 ， 得 分 越 
高 的 被 试 其 缺失 作答 的 比例 越 小 ,得 分 越 低 的 被 试 
其 缺失 作答 的 比例 越 高 。 具 体 而 言 ， 首先 基于 完整 
的 模拟 数据 集 计 算 每 个 被 试 在 各 项 目 上 的 CTT 得 
分 ， 然 后 将 被 试 的 得 分 进行 正 态 化 转换 ， 通 过 正 态 
累积 分 布 孔 数 找到 百 分 等 级 位 于 5%、15%、30%、 
70%、85%、95% 位 置 上 的 百 分 位 数 , 根据 这 些 百 分 
位 数 将 被 试 分 成 7 组 , 设 定 得 分 越 高 的 组 数据 缺失 
比例 越 低 。 用 MR 表示 总 缺失 比例 , 则 每 组 被 试 对 
应 的 缺失 比例 如 表 1 所 示 。 例 如 ， 对 于 总 缺失 比例 
MR 为 30% 的 条 件 ， 原 始 得 分 处 在 0%~5% 这 一 区 间 
的 被 试 ， 其 缺失 比例 为 1.5 x 30% = 45%, 599-1596 
这 一 区 间 的 被 试 ， 其 缺失 作答 比例 为 1.35 x 30% = 
40.5%， 依 次 类 推 。 在 确定 了 各 区 间 被 试 作 答 的 缺 
失 比 例 后 ， 再 针对 每 个 被 试 在 每 道 试题 上 的 作答 都 


表 1 不 同 分 数 段 MAR 缺失 比例 分 布 

分 类 分 段 缺失 比例 (%) 
0%~5% MRx1.50 
5%~15% MRx1.35 
15%~30% MRx1.15 
30%~70% MRx1.00 
70%~85% MRx0.85 
85%~95% MRx0.65 
909410094 MRx0.50 
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生成 一 个 0 和 1 之 间 的 随机 数 r 来 判断 当前 作答 是 
否 被 设置 为 缺失 ， 当 随机 数 r 小 于 缺失 比例 时 ， 试 
题 作 答 被 设置 为 缺失 。 

(3) MNAR 缺失 数据 的 生成 

MNAR 缺失 机 制 指 的 是 数据 缺失 的 概率 与 缺 
失 变量 本 身 相 关 。 对 于 MNAR 缺失 数据 的 生成 ,本 
研究 借鉴 了 Dai (2017) 的 研究 ,根据 被 试 在 每 道 试 
题 上 的 作答 计算 该 作答 的 缺失 概率 。 即 ， 知 某 被 试 
在 某 试题 上 的 原始 作答 正确 , 则 缺失 概率 小 ,并 且 
试题 越 难 缺失 比例 越 大 , 反之 亦 然 。 具体 过 程 如 下 : 
首先 , 根据 数据 缺失 的 整体 比例 计算 出 每 个 被 试 缺 
失 试 题 的 个 数 ; 然后 ,为 每 个 被 试 设置 一 个 概率 调 


出 的 采用 模型 默认 的 方法 处 理 少 量 没有 插 补 缺失 
数据 是 合理 的 。 
3.4 ”研究 结果 

d 2 呈现 了 不 同 缺失 机 制 和 缺失 比例 下 ,采用 
RFI 方 法 和 RFTI 方 法 插 补 值 为 1 时 的 正确 率 结果 。 
表 3 呈现 了 不 同 缺 失 机 制 和 缺失 比例 下 RFTI 方法 
的 正确 率 和 插 补 后 仍 缺 失 的 数据 比例 。 


R2 不 同 缺失 机 制 和 比例 下 , RFI 方法 与 RFTI 方法 的 
揪 补 正确 率 比 较 
RFI 插 补 值 为 1 的 RFTI 插 补 值 为 1 的 
正确 率 (%) 正确 率 (%) 
MIXED MNAR MAR MCAR MIXED MNAR MAR MCAR 


缺失 
比例 


节 因 子 e， 初 值 为 0, 计算 被 试 正确 作答 某 道 试题 
的 概率 p, 再 通过 产生 一 个 0 和 1 之 间 的 随机 数 r 
来 判断 被 试 在 某 试 题 上 的 作答 是 否 被 设 定 为 缺失 ， 
当 随 机 数 r > pte 时 , 被 试 在 该 试题 上 的 作答 则 被 
设置 为 缺失 。 过 程 中 如 果实 际 缺 失 个 数 与 初始 设 定 
的 个 数 不 相 等 ， 则 重新 设置 = 的 值 。 若 缺失 个 数 大 
于 预 设 的 缺失 个 数 ， 则 增 大 e 的 值 ; 车 缺失 个 数 小 
于 预 设 分 配 缺 失 个 数 ， 则 减 小 = 的 值 。 不 断 调整 = 
的 值 并 重新 生成 缺失 数据 ， 直 到 各 被 试 缺失 作答 的 
试题 个 数 等 于 初始 设 定 的 个 数 时 结束 。 

(4) MIXED 缺失 数据 的 生成 

混合 缺失 机 制 是 指 缺 失 数据 集中 包含 两 种 或 
以 上 的 缺失 机 制 。 本 研究 借鉴 了 De Ayala 等 人 
(2001) 和 Dai (2017) 及 Peugh 和 Enders (2004) 提 出 
的 方法 。 首 先 , 采用 与 生成 MAR 缺失 数据 时 相同 
的 方法 , 将 被 试 分 为 7 组 ,并 计算 各 组 被 试 缺失 作 
答 的 比例 ,使 得 分 越 高 的 被 试 的 数据 缺失 比例 越 
低 。 然 后 ， 计 算出 每 个 被 试 的 数据 缺失 个 数 后 ， 再 
采用 MNAR 缺失 数据 产生 的 过 程 得 到 所 有 被 试 的 
缺失 数据 。 这 样 可 以 使 得 MIXED 缺失 数据 的 生成 
不 仅 依赖 于 被 试 能 力 ， 而 且 依赖 于 测验 项 目 本 身 的 
特征 。 
3.8 ”评价 指标 

本 研究 用 来 评价 插 补 效果 的 指标 主要 有 : (]) 缺 
失 数 据 插 补 的 正确 率 , 描述 的 是 缺失 数据 插 补 正确 
的 个 数 占 插 补 数据 个 数 的 比例 ， 数 值 越 大 表示 插 补 
越 准 确 。 在 本 研究 中 由 于 RFI 和 RFTI 插 补 为 0 的 
数据 个 数 相 同 , 我 们 只 统计 插 补 为 1 的 正确 率 ， 以 
考察 动态 国 值 的 效果 。(2) 插 补 后 数据 集中 仍然 缺失 
的 数据 所 占 比例 ,用 来 描述 RETI 揪 补 后 仍然 缺失 
的 数据 占 总 数据 个 数 的 比例 ， 其 数值 越 小 表明 插 补 
率 越 高 ,如果 其 比例 较 低 (20% 以 内 ), 则 说 明 前 面 提 


un 


10% 49.39 59.19 75.54 75.30 71.80 78.57 82.12 83.07 
20% 42.84 49.29 73.23 73.62 67.25 75.45 83.04 81.81 
30% 35.42 44.98 71.49 71.65 68.26 74.91 80.35 81.48 
40% 32.51 42.97 68.32 69.04 58.22 71.59 79.74 79.84 
50% 30.89 42.60 66.74 64.97 49.44 64.58 76.67 78.09 
平均 3821 47.80 71.06 70.92 62.99 73.02 80.39 80.86 


HE: 表 中 数据 为 搬 补 为 1 时 的 插 补 正确 率 。 


从 表 2 可 以 看 出 ， 所 有 条 件 下 , 采用 RFTI 方 法 
的 持 补正 确 率 都 明显 高 于 RFI 方法。 缺失 机 制 是 影 
响 插 补 率 的 主要 因素 ,在 缺失 机 制 为 MIXED 和 
MNAR 时 ， 对 于 各 缺失 比例 平均 正确 率 , RFTI 方 法 
E RFI 方法 要 高 出 约 25%。 在 缺失 机 制 为 MCAR 
和 MAR EF, RFI 方法 的 插 补 正确 率 也 要 低 于 RFTI 
方法 大 约 10% 左 右 。 另 外 ， 随 着 缺失 比例 增加 ， 两 
种 方法 的 插 补 正确 率 均 出 现下 降 的 趋势 , 但 是 RFI 
方法 下 降 更 快 。 


A3 不 同 缺 失 机 制 和 比例 下 , RETI 方法 的 插 补 正确 率 
和 插 补 后 的 缺失 率 (%) 
" MIXED MNAR MAR MCAR 
M 正确 Bk EM WR EM BUK EM B 
Xx = — Xx X — X x x m 
10% 86.15 0.96 84.69 1.16 77.68 0.94 77.94 1.01 
20% 85.86 2.13 84.39 2.81 77.97 2.03 77.69 2.02 
30% 85.86 3.87 84.35 5.88 78.19 3.55 78.28 3.50 
40% 85.61 7.27 84.38 9.03 78.27 5.98 78.48 5.60 
50% 85.03 10.12 82.61 11.66 78.28 7.03 78.41 7.98 
注 : 缺失 率 是 指 采用 RETI 方法 插 补 后 ,数据 集中 没有 被 
插 补 数据 所 占 比例 。 


从 表 3 可 以 看 出 在 同一 缺失 机 制 下 ， 数 据 正确 
率 的 变化 受 缺 失 比例 的 影响 不 明显 。 但 不 同 机 制 下 
揪 补 的 正确 率 存在 差异 。 当 缺失 机 制 为 MIXED HT, 
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不 同 缺 失 比例 条 件 下 的 正确 率 都 达到 85$% 以 上 ; 当 
缺失 机 制 为 MNAR 时 ， 插 补 的 正确 率 与 MIXED 机 
制 下 的 结果 类 似 ; 但 是 当 缺 失 机 制 为 MAR 和 
MCAR 时 , 插 补 的 正确 率 均 在 78% 左 右 ， 略 低 于 
MIXED 和 MNAR 机 制 下 的 结果 。 这 一 结果 与 随机 
森林 方法 本 身 的 特点 有 关 ,， 由 于 MIXED 和 MNAR 
机 制 下 , 被 试 的 缺失 模式 反而 可 以 为 RFTI 方法 的 
训练 模型 提供 更 多 的 关于 缺失 反应 模式 的 信息 。 

表 3 缺失 率 的 结果 表明 ,采用 RETI 方法 对 原 
始 数据 进行 插 补 后 ， 数 据 的 缺失 率 随 着 缺失 比例 的 
增加 呈现 上 升 的 趋势 。 当 缺失 比例 为 10% 时 , 4 种 
缺失 机 制 下 插 补 后 的 缺失 率 均 在 1% 左 右 ; MA 
比例 为 30% 时 , MIXED MAR 和 MCAR 三 种 缺失 
机 制 下 的 插 补 后 缺失 率 均 在 3% 左 右 ，MNAR 机 制 
下 也 仅 为 4% 左 右 。 当 缺失 比例 为 50% 的 时 候 ， 
MIXED 和 MNAR 机 制 下 , 插 补 后 的 缺失 率 为 10% 
EA, Mi MAR 和 MCAR 机 制 下 的 搬 补 后 缺失 率 略 
低 一 些 , 均 不 超过 8%。 

从 研究 1 的 结果 可 以 看 出 , 对 REL 方法 进行 改 
进 后 的 RFTI 方 法 对 于 插 补 值 为 1 时 的 正确 率 的 提高 
有 明显 效果 , 并 且 采 用 RFTI 方 法 处 理 后 的 数据 的 缺 
失 比 例 都 在 10% 左 右 ， 因 此 ， 对 基于 RETI 方法 处 理 
后 的 数据 进行 后 续 分 析 时 ,可 以 采用 简单 忽略 方法 。 


4 研究 2: BAL BRAK BM EAE Hb TT TS 
的 效果 检验 


研究 2 的 主要 目的 是 探讨 不 同 缺失 机 制 和 缺失 
比例 下 , RFTI 方 法 相 比 于 其 它 常用 的 缺失 数据 搬 补 
方法 的 优势 。 验 证 RFTI 方法 在 DINA 模型 下 处 理 
缺失 数据 的 效果 ,， 并且 与 EM 算法 和 RFI 方 法 进行 
对 比 。 同 时 探讨 数据 缺失 机 制 和 缺失 比例 以 及 不 同 
缺失 数据 处 理 方法 对 被 试 属性 模式 判 准 率 、 属 性 边 
际 判 准 率 及 项 目 参 数 估计 精度 的 影响 。 
41 ”研究 设计 

本 研究 的 设 定 条 件 与 研究 1 相同 。 考虑 与 缺失 
相关 的 因素 有 两 个 : 缺失 机 制 (MIXED 、MNAR、 
MAR, 、MCAR) 和 缺失 比例 (10%、20% 、30% 、40% 、 
50%)。 共 有 4x5=20 PHA, 在 每 一 种 被 试 间 变 量 
组 合 的 条 件 下 , 重复 模拟 生成 100 个 符合 条 件 的 被 
试 作答 数据 集 ， 每 个 数据 集 分 别 采 用 EM. RFI 和 
RFTI 三 种 缺失 数据 处 理 方法 进行 分 析 。 其 他 条 件 
与 研究 1 的 设 定 相同 。 
4.2 ”研究 方法 

模拟 数据 生成 方法 与 研究 1 相同 。 对 于 每 种 方 


法 插 补 后 的 数据 集 , 采用 EM 算法 估计 DINA 模型 
Hg HX, 采用 后 验 概率 估计 法 (Maximum A 
Posteriori, MAP) 估 计 被 试 属性 掌握 模式 .对 于 了 FTI 
方法 中 搬 补 后 数据 集中 的 缺失 数据 ,采用 忽略 缺失 
数据 的 方法 进行 处 理 ， 即 在 估计 被 试 掌握 模式 时 将 
这 个 被 试 缺失 的 题目 删除 ,估计 题目 参数 时 将 在 这 
道 题目 上 缺失 的 被 试 删除 。 
43 评价 指标 

关于 项 目 参 数 的 估计 ,本 研究 主要 采用 了 2 个 
评价 指数 ， 分 别 为 所 有 题目 偏差 Bias 和 均 方 根 误 
差 RMSE 的 均值 .所 有 项 目 参数 估计 的 偏差 均值 定 
义 为 : 


m R 
Bias = S (8, —,) (Rxm) (8) 


j=l r=l 


所 有 题目 上 平均 的 均 方 根 误 差 定义 为 : 


RMSE = 之 (9) 


其 中 , R 表示 独立 重复 模拟 的 次 数 , 本 研究 中 R= 
100; m 表示 题目 的 个 数 ， 本 人 研究 中 m =30, x, 和 
zy 分别 表示 第 r 次 重复 第 j 个 题目 参数 的 真 值 和 信 
计 值 , 项 目 参 数 指 DINA 模型 的 失误 参数 s 和 猜测 
参数 go Bias 指标 反映 了 估计 值 与 真 值 的 偏差 的 平 
均值 。Bias 越 接近 0 表示 能 力 估计 越 准 确 。RMSE 
指标 反映 了 项 目 参 数 真 值 与 估计 值 的 偏 移 均 方 根 ， 
其 值 越 小 表示 估计 准确 性 越 高 。 

关于 被 试 的 知识 状态 估计 结果 , 本 研究 采用 了 
被 试 属性 模式 判 准 率 (Pattern Match Ratio, PMR) 和 
被 试 属性 边际 判 准 率 (Marginal Match Rate, MMR) 
两 个 评价 指标 。 

若 被 试 属性 掌握 模式 的 估计 向 量 a 与 真 值 向 
量 a 相等 ， 即 对 应 的 元 素 完 全 相同 ， 则 认为 被 试 属 
生 和 掌握 模式 的 估计 结果 是 正确 的 ， 记 为 1; 否则 认 
为 是 错误 的 ， 记 为 0。 模 式 判 准 率 PMR 为 R 次 重复 
中 个 被 试 中 属性 掌握 模式 判断 正确 的 人 数 PN 所 
占 的 比例 的 均值 ， 考查 的 是 对 属性 掌握 模式 整体 的 
判断 准确 性 ， 其 计算 公式 为 : 


R 
PWMR-=》 R 
n 


4 


-— 


(10) 
ral 
其 中 PN, 为 第 ”次 重复 中 属性 掌握 模式 判断 正确 的 
人 数 。 
边际 判 准 率 MMR 考查 模型 在 每 个 属性 上 的 平 
均 判 断 正确 的 效果 。 首 先 统计 每 次 重复 中 各 个 属性 
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k 上 判断 正确 的 被 试 人 数 PN, 占 总 人 数 n 的 比例 ， 
=1,2,…,K(K 为 属性 总 数 )， 然 后 对 各 属性 的 边际 
判 准 率 求 平均 , 得 到 所 有 属性 的 平均 边际 判 准 率 ， 即 : 


MMR = yy pw， (Kx R) (11) 


k=l r=] 
其 中 PN, 为 第 r 次 重复 中 属性 判断 正确 的 人 数 。 
公式 (10) 和 (11) 中 , R 表示 独立 重复 模拟 的 次 数 ; 
n 表示 被 试 的 人 数 , K 为 考查 属性 个 数 。PMR 和 
MMR 越 高 ， 表 示 对 被 试 掌握 模式 判断 的 准确 性 就 
越 高 。 
44 研究 结果 
4.4.1 不 同方 法 被 试 知识 状态 估计 结果 的 差异 
不 同 缺失 机 制 和 缺失 比例 下 ,被 试 属性 模式 判 
准 率 (PRM) 和 属性 边际 判 准 率 (MMR) 结 果 见 表 4。 
从 表 4 的 结果 可 以 看 出 , 无 论 在 哪 种 条 件 下 ,，RFTI 
方法 在 PRM 和 MMR 上 的 估计 结果 均 优 于 EM 和 
RFI 方法。 


RA 不 同 缺失 机 制 和 缺失 比例 下 各 缺失 数据 处 理 方法 所 
得 模式 判 准 率 和 边际 判 准 率 


缺失 缺失 ”模式 判 准 率 (PMR) 边际 判 准 率 (MMR) 
机 制 比例 EM RFI RFTI EM RFI RFTI 
10% 0.498 0.518 0.526 0.827 0.838 0.842 
20% 0.471 0.502 0.529 0.816 0.835 0.846 
MIXED 30% 0.414 0.457 0.513 0.791 0.819 0.843 
40% 0.399 0.414 0.525 0.784 0.807 0.848 
50% 0.335 0.346 0.489 0.753 0.777 0.836 
10% — 0.517 0.541 0.547 0.840 0.851 0.854 
20% 0.499 0.537 0.562 0.830 0.850 0.859 
MNAR 30% 0.427 0.478 0.546 0.802 0.832 0.855 
40% . 0.392 0.434 0.543 0.792 0.823 0.859 
50% 0.316 0.364 0.489 0.755 0.792 0.841 
10% 0.482 0.482 0.486 0.825 0.829 0.830 
20% 0.430 0.434 0.439 0.797 0.807 0.810 
MAR 30% 0.370 0.377 0.384 0.774 0.787 0.792 
40% 0.349 0.355 0.366 0.754 0.771 0.778 
50% 0.281 0.285 0.298 0.716 0.737 0.749 
10% 0.462 0.463 0.467 0.819 0.824 0.825 
20% . 0.432 0.437 0.442 0.797 0.805 0.808 
MCAR 30% 0.374 0.379 0.386 0.770 0.783 0.789 
40% . 0.341 0.345 0.357 0.750 0.767 0.776 
50% 0.302 0.305 0.319 0.727 0.747 0.760 


缺失 机 制 对 不 同方 法 之 间 的 差异 有 明显 的 影 
m, 无 论 缺 失 比 例 大 小 MNAR 和 MIXED 缺失 机 
制 时 , RETI 方法 的 优势 更 明显 。 为 了 清楚 的 呈现 这 
一 趋势 ,我 们 以 缺失 比例 30% 为 例 说 明 三 种 不 同方 


法 在 不 同 缺失 机 制 上 的 差异 ( 表 4)。 从 表 4 的 结 
可 以 看 出 , 在 不 同 的 缺失 机 制 下 ,采用 RETI 方法 
时 的 PMR 均 高 于 其 他 方法 , 特别 是 在 缺失 机 制 为 
MIXED FI MNAR 时 优势 更 加 明显 。 当 缺失 机 制 为 
MAR 和 MCAR Ff, RFTI 仍 优 于 其 他 两 种 方法 ,但 
是 三 种 方法 之 间 的 差异 不 大 。 男 外 , 在 MMR E, 
RETI 方法 也 均 略 高 于 其 它 方 法 , MIXED fll MNAR 
缺失 机 制 下 ,优势 略微 明显 。 但 整体 来 讲 ， 由 于 
MMR 整体 较 高 ， 方 法 之 间 的 差异 不 明显 。 

缺失 比例 影响 在 不 同 缺 失 机 制 下 也 表现 出 近 
似 一 致 的 趋势 ,无 论 何 种 缺失 机 制 ，RFTI 在 PMR 
和 MMR 上 的 表现 均 最 优 , 而 且 这 一 优势 随 着 缺失 
比例 的 增加 优势 越 来 越 明 显 。 从 表 4 可 以 看 出 ， 当 
缺失 比例 为 10% 的 时 候 , RFI 方 法 和 RFTI 方 法 间 的 
差异 不 明显 , 但 均 高 于 EM 方法 。 随 着 缺失 数据 比 
例 的 增加 ， 三 种 方法 的 PMR 都 随 之 下 降 , 但 RFT 
方法 下 降 的 幅度 最 小 。 从 MMR 的 结果 来 看 , RFTI 
方法 也 优 于 其 它 两 种 方法 ,方法 间 差 异 随 着 缺失 比 
例 增 大 而 增 大 。 
442 ”不 同方 法 项 目 参 数 估计 结果 比较 

不 同 缺失 机 制 和 缺失 比例 下 ,采用 EM. RFI, 
RFTI 三 种 方法 在 DINA 模型 s 参 数 和 8g 参 数 上 的 佑 
计 偏 差 和 均 方 根 误差 的 结果 分 别 见 表 5 和 表 6。 


表 5 不 同 缺 失 机 制 和 缺失 比例 下 各 处 理 方法 参数 估计 偏差 


缺失 缺失 s 参数 g 参数 

机 制 比例 EM RFI RFTI EM RFI RFTI 
10% 0.005 0.008 0.009 0.005 —0.011 -0.015 
20% 0.012 0.012 0.012 0.014 —0.016 —0.027 

MIXED 30% 0.026 0.028 0.022 0.022 —0.024 -0.041 
40% — 0.040 0.043 0.023 0.033 —0.026 —0.051 
50% 0.060 0.060 0.033 0.045 -0.027 -0.061 
10% 0.010 0.015 0.017 0.003 —0.012 —0.016 
20% 0.022 0.025 0.028 0.011 -0.018 —0.028 

MNAR 3099 0.051 0.054 0.044 0.016 —0.026 —0.042 
40% — 0.073 0.067 0.051 0.022 —0.028 —0.051 
50% — 0.091 0.080 0.067 0.026 -0.035 -0.060 
10% 0.015 0.026 0.028 0.004 —0.009 -0.011 
20% 0.029 0.049 0.054 0.010 —0.016 —0.020 

MAR 30% 0.049 0.078 0.087 0.015 -0.023 -0.030 
40% — 0.067 0.081 0.092 0.021 —0.029 —0.039 
50% — 0.094 0.110 0.120 0.027 -0.035 0.048 
10% 0.015 0.032 0.035 0.004 —0.010 —0.012 
20% 0.030 0.052 0.058 0.010 —0.016 —0.020 

MCAR 30% 0.050 0.077 0.085 0.014 —0.024 —0.030 
40% — 0.066 0.089 0.098 0.021 —0.031 -0.040 
50% — 0.094 0.109 0.110 0.027 -0.034 —0.047 
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表 6 不 同 缺失 机 制 和 缺失 比例 下 各 处 理 方法 参数 估计 
均 方 根 误差 
缺失 ”缺失 s 参数 g 参数 


机 制 ”比例 EM RFI RFTI EM RFI RFTI 
10% 0.038 0.040 0.040 0.019 0.021 0.021 
20% 0.040 0.044 0.040 0.026 0.033 0.032 
MIXED 30% 0.056 0.067 0.061 0.034 0.048 0.045 
40% 0.064 0.087 0.060 0.045 0.060 0.056 
50% 0.084 0.123 0.076 0.059 0.083 0.068 
10% 0.059 0.063 0.064 0.018 0.022 0.022 
20% 0.048 0.064 0.062 0.024 0.033 0.032 
MNAR 30% 0.074 0.110 0.086 0.030 0.046 0.047 
40% 0.100 0.141 0.099 0.036 0.058 0.056 
50% 0.131 0.180 0.126 0.043 0.072 0.067 
10% 0.053 0.067 0.068 0.018 0.020 0.020 
20% 0.055 0.092 0.092 0.022 0.029 0.028 
MAR 30% 0.076 0.135 0.135 0.027 0.037 0.037 
40% 0.091 0.156 0.154 0.032 0.048 0.048 
50% 0.126 0.201 0.192 0.038 0.056 0.057 
10% 0.048 0.067 0.067 0.018 0.021 0.021 
20% 0.060 0.095 0.096 0.023 0.029 0.029 
MCAR 30% 0.081 0.136 0.136 0.026 0.038 0.038 
40% 0.092 0.166 0.161 0.032 0.047 0.048 
50% 0.129 0.206 0.186 0.038 0.057 0.057 


从 表 5 的 结果 可 以 看 出 ， 随 着 缺失 比例 增 大 , 3 
种 方法 对 项 目 参 数 的 估计 偏差 均 有 增 大 的 趋势 。 对 
于 项 目 参数 s, 在 4 种 不 同 缺失 机 制 下 ,无 论 采 用 
何 种 缺失 数据 处 理 方法 ,s 的 值 都 被 高 估 。 在 缺失 机 
制 为 MIXED FI MNAR 时 , 缺失 比例 较 低 时 (<20%)， 
三 种 方法 之 间 差 异 较 小 EM 算法 表现 出 微弱 优势 ， 
而 缺失 比例 较 高 时 (三 30%) 采 用 RFTI 处 理 方法 得 
到 的 s 的 估计 偏差 最 小 , EM ,RFI 方法 表现 相当 ,并 
且 随 着 缺失 比例 增加 RETI 方法 的 优势 更 为 明显 。 
当 缺 失 机 制 为 MAR 和 MCAR 时 , 采用 EM 方法 得 
到 的 s 的 估计 偏差 最 小 , 采用 RFTI 方法 得 到 的 s 
估计 偏差 最 高 。 对 于 项 目 参 数 g, 无 论 在 哪 种 缺失 
机 制 下 , 采用 EM 方法 时 e 的 值 存在 高 佑 现象 ， 采 
用 RF fil RFT 方法 时 g 的 值 都 被 低估 ,但 偏差 均 较 
s 参数 小 。 

从 表 6 估计 均 方 根 误差 的 结果 可 以 看 出 ， 对 于 
Jj HC s 的 均 方 根 误差 的 估计 精度 ,大 部 分 条 件 
下 EM 方法 的 表现 要 优 于 RFI 和 RFTI 方法 ， 只 有 
TE MNAR 和 MIXED 机 制 下 上 且 缺 失 比 例 高 时 , RFTI 
方法 表现 出 优势 。 对 于 项 目 参 数 g， 采 用 EM 方法 
在 4 种 缺失 机 制 下 的 表现 都 是 最 好 , RFI f RETI 7r 


法 则 表现 相当 。 
s 讨论 与 结论 


5.4 讨论 

本 研究 尝试 将 机 器 学 习 中 随机 森林 缺失 数据 
的 播 补 REFD 方 法 应 用 于 认 知 诊断 模型 ， 基 于 RFI 
方法 将 缺失 数据 插 补 为 1 时 的 正确 率 偏 低 的 问题 ， 
提出 了 一 种 基于 认 知 诊断 模型 中 的 个 人 拟 合 指标 
RCI 来 动态 确定 阐 值 的 新 方法 ， 即 随机 森林 羡 值 插 
补 方法 (RFTI)。 该 方法 首次 实现 了 缺失 数据 插 补 过 
程 中 ,机 器 学 习 方法 与 认 知 诊断 模型 的 结合 应 用 ， 
正确 率 和 搬 补 率 的 结果 证 实 了 这 是 一 种 有 效 的 动 
ASHE PE BELAY TTI 

为 验证 该 方法 有 效 改进 了 RFI 方 法 插 补 正确 率 
过 低 的 问题 , 我 们 以 DINA 模型 为 例 , 探讨 了 不 同 
缺失 比例 和 不 同 机 制 下 , RFTI 方 法 对 缺失 数据 的 搬 
补 效果 ,结果 证 实 了 我 们 的 假设 和 预期 , RFTI 方法 
对 于 插 补 值 为 1 时 的 正确 率 相 对 于 RFI 方 法 有 明显 
提高 ， 并 用 在 各 种 实验 条 件 下 数据 的 插 补 率 和 正确 
率 都 有 较 好 的 结果 ; 从 整体 正确 率 来 看 , 采用 RFTI 
方法 比 REI 方法 有 显著 提高 。 由 于 其 第 二 阅 值 的 选 
择 过 程 中 考虑 到 了 错误 插 补 可 能 带 来 的 对 认 知 诊 
断 模 型 拟 合 的 破坏 , 这 一 方法 国 值 选择 的 思想 也 体 
现 了 随机 和 森林 方法 与 认 知 诊断 模型 的 结合 。 但 是 我 
们 也 应 该 注意 到 ,这 一 方法 是 一 种 插 补 率 和 正确 率 
之 间 的 有 效 平 衡 ， 插 补 后 的 数据 集 仍 存在 少量 的 缺 
失 数据 。 实 际 中 , 由 于 这 一 比例 较 小 , 可 以 将 其 视 为 
可 忽略 的 缺失 值 (Little & Rubin, 2002; Muthén et al., 
2011), 以 降低 插 补 方法 带 来 的 不 确定 性 。 

研究 2 的 模拟 研究 结果 验证 了 在 被 试 属性 模式 
判 准 率 上 , RFTI 方 法 的 有 效 性 ,以 及 与 其 他 方法 相 
比 所 表现 出 来 的 优势 。 与 我 们 的 预期 一 致 ， 由 于 
RFTI 是 一 种 非 参 数 的 缺失 数据 捅 补 方法 ， 其 表现 
出 较 少 受到 缺失 机 制 和 缺失 比例 影响 的 优点 。 同 时 ， 
由 于 其 在 缺失 数据 插 补 过 程 中 ， 主 要 利用 被 试 个 体 
内 的 反应 模式 对 其 缺失 的 类 别 做 出 概率 判断 可 以 
充分 利用 MIXED FI MNAR 缺失 机 制 下 ,模式 反应 
上 的 差异 提供 的 信息 ， 因 此 ， 表 现 出 在 缺失 机 制 为 
MIXED 和 MNAR 时 在 被 试 属性 掌握 模式 上 有 更 为 
明显 的 优势 。 这 一 受 缺失 机 制 影响 的 模式 与 传统 
IRT 模型 并 不 一 致 ， 究 其 原因 可 能 与 认 知 诊断 模型 
中 对 被 试 知 识 状态 的 估计 实际 上 是 掌握 和 不 掌握 
的 分 类 预测 ， 而 非 连续 的 能 力 估 计 。 以 往 研 究 也 发 
现 , 缺失 数据 处 理 方法 的 性 能 与 缺失 机 制 有 关 ， 其 
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关系 取决 于 具体 的 研究 背景 ， 包括 分 析 模 型 和 数据 
类 型 (分 类 或 连续 )Dai, 2017; Zhuchkova & Rotmistrov, 
2021)。 因 此 ,可 以 推测 在 CDM 和 IRT 之 间 , 缺失 
数据 机 制 对 传统 方法 的 影响 可 能 不 同 。 另 一 方面 ， 
RFTI 方法 在 对 被 试 知识 状态 进行 估计 时 表现 出 的 
优势 可 能 是 因为 其 在 数据 插 补 和 浆 值 确定 过 程 中 ， 
关注 的 是 个 人 拟 合 指标 而 非 参数 拟 合 指标 ， 同 时 也 
可 能 这 一 插 补 过 程 更 多 地 利用 了 个 体 反 应 模式 的 
信息 , MNAR 和 MIXED 的 缺失 机 制 相 比 于 MCAR 
和 MAR 机 制 , 其 本 身 反 而 提供 了 一 些 额 外 有 用 的 
信息 。 但 是 ， 从 项 目 参数 的 估计 精度 来 看 , RFTI 77 
法 并 没有 表现 出 一 致 的 明显 优势 。 对 于 项 目 参 数 大 
部 分 条 件 下 采用 EM 方法 时 的 估计 最 精确 。 这 可 能 
与 RFTI 方法 本 身 在 训练 模型 的 过 程 中 本 质 上 并 不 
能 有 效 利用 同一 项 目 不 同 被 试 个 体 的 信息 有 关 。 
52 ”研究 局 限 性 与 展望 

本 研究 的 重点 是 将 机 器 学 习 的 方法 与 认 知 诊 
断 模 型 结合 ， 对 其 可 行 性 和 效果 进行 了 初步 的 检验 ， 
尚 有 许多 值得 进一步 思考 和 研究 的 问题 。 

(1) 本 研究 只 考虑 了 0-1 评分 的 情况 ， 如 何 对 方 
法 改进 进行 多 级 评分 的 缺失 数据 的 插 补 ,应 用 于 多 
级 评分 的 认 知 诊断 模型 ,还 有 待 进一步 的 研究 。(2) 
对 于 认 知 诊断 模型 的 选择 , 虽然 从 理论 上 来 讲 ， 
RFTI 适用 于 所 有 明确 定义 项 目 反应 函数 的 认 知 诊 
DEA, 但 是 本 研究 只 结合 DINA 模型 验证 了 基于 
个 人 拟 合 指数 确定 动态 闵 值 插 补 方法 的 有 效 性 , 但 
是 RFTI 在 其 他 认 知 诊断 模型 中 ,是 否 能 够 得 到 与 
本 研究 类 似 的 结果 , 仍 有 等 进一步 验证 。(3) 由 于 本 
研究 重点 是 探究 缺失 数据 的 处 理 , 所 以 RFTI 方法 
及 对 该 方法 优势 的 结论 都 是 基于 Q 和 矩阵 正确 设 定 
的 前 提 ， 实际 中 Q 和 矩阵 的 正确 设 定 也 是 认 知 诊断 测 
评 关 注 的 重要 议题 。 当 Q 矩阵 设 定 存在 错误 时 ,未 
来 研究 一 方面 可 以 探讨 RETI 方法 对 缺失 数据 的 插 
补 效果 如 何 受 到 Q 和 矩阵 错误 设 定 以 及 错误 设 定 程 
度 的 影响 ,， 男 一 方面 在 采用 RFTI 方法 进行 缺失 数 
据 插 补 前 ， 可 以 对 Q 矩阵 设 定 进行 修正 (Liu et al., 
2021; 李 佳 95, 2021), 基于 修正 后 的 Q FAME 
用 RETI 方法 处 理 缺 失 值 。(4) 本 研究 没有 对 属性 之 
间 结 构 关 系 以 及 认 知 诊断 模型 中 可 能 存在 的 项 目 
特征 相依 (Zhan et al., 2019) 带 来 的 影响 进行 深入 的 
探讨 ， 未 来 的 模拟 研究 可 以 设 定 更 多 的 条 件 ， 进 一 
步 考 查 这 些 因 素 对 RFTI 方法 可 能 产生 的 影响 。(5) 
本 研究 确定 阔 值 的 过 程 是 在 指定 范围 内 ,按照 事先 
定义 的 步 长 在 区 域内 进行 搜索 ,这 一 方法 在 实现 虽 


然 较为 直接 , 但 有 可 能 效率 较 低 , 例如 比较 耗 时 ; 
同时 可 能 存在 由 于 步 长 设置 不 同 而 使 得 结果 存在 
细微 的 差异 。 在 未 来 研究 中 ,可 以 进一步 探讨 不 同 
条 件 下 ， 阅 值 变 化 与 个 人 拟 合 指 标的 变化 规律 , 在 
理论 上 推 帝 二 者 的 关系 ,为 阔 值 的 确定 提供 更 充分 
的 依据 。 

5.3 ”结论 与 建议 

本 研究 得 到 的 主要 结论 如 下 。 

(1) 本 研究 提出 了 一 种 RFI 和 DINA 模型 相 结 合 
的 RFTI 方法 , 该 方法 是 一 种 不 依赖 于 缺失 机 制 假 
设 的 非 参数 捅 补 方法 。 并 开发 了 实现 这 一 方法 的 及 
程序 包 ， 为 实际 应 用 者 提供 了 方便 易 用 的 工具 。 

(2)RFTI 在 正确 率 上 弥补 了 RFI 正确 率 过 低 的 
Jak, 并且 对 DINA 模型 的 项 目 参 数 s 和 g 参数 的 
估计 结果 ， 以 及 被 试 属性 掌握 模式 和 属性 边际 判 准 
率 的 估计 结果 均 优 于 RFI 方法 。 

(3) 对 于 被 试 知识 状态 的 估计 结果 表明 ,在 考 
虑 的 所 有 条 件 下 , RETI 方法 均 优 于 RFI 方 法 和 EM 
方法 ， 特 别 是 在 缺失 机 制 为 MIXED 和 MNAR, 以 
及 缺失 比例 较 高 (230%) 时 ，REFTI 方法 的 优势 更 加 
明显 。 

(4) 项 目 参 数 估计 结果 表明 在 缺失 比例 较 低 或 
缺失 机 制 为 MCAR 和 MNAR 时 , EM 方法 优 于 RFI 
和 RFTI 方 法 ; 在 MNAR Ail MIXED 缺失 机 制 下 ， 对 
于 e 参数 的 估计 RFTI 表现 出 优势 。 总 体 而 言 , 采 
用 RETI 方法 在 参数 估计 上 的 表现 一 般 , 与 其 他 方 
法 相 比 并 不 具备 优势 。 

基于 本 研究 的 结论 , 我 们 给 出 RFTI 方法 选择 
上 的 建议 如 下 : 对 于 含有 缺失 数据 的 认 知 诊断 ， 如 
果 研 究 者 关注 的 重点 是 被 试 知识 状态 的 估计 (这 往 
往 是 认 知 诊断 测验 本 身 要 解决 的 问题 , 是 实际 应 用 
关注 的 焦点 ), 我 们 推荐 使 用 新 提出 的 RFTI 方法 ; 
但 是 如 果 研 究 者 的 目的 是 对 项 目 参 数 进行 准确 佑 
计 ， 如 建立 题库 等 ,这 一 方法 的 使 用 则 要 相当 慎重 ， 
我 们 则 推荐 采用 EM 算法 。 
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Abstract 

In recent years, interest in cognitive diagnostic assessments (CDAs), as a new form of test, has increased 
drastically. Due to the specific design of the test, missing data is an inevitable problem in CDAs. Proper 
handling of missing data in CDAs is important to provide accurate diagnostic feedback to students and teachers. 
With the use of machine learning in education, relevant advancements have been made in missing data 
imputation. Research showed machine learning techniques have more desirable features for missing data 
imputation than traditional approaches. The random forest algorithm has been extended to become the random 
forest imputation (RFI) method in handling of CDAs missing data for CDAs. The method takes into 
consideration the characteristics of the data rather than assumes certain missing mechanism. RFI is a new 
non-parametric method that makes full use of the available response information and characteristics of response 
patterns to impute missing data. 

Making use of advantages of RFI in categorization/prediction and its non-reliant on missing mechanism 
type, we improved and proposed the new random forest threshold imputation (RFTI) method. It could be used to 
impute missing responses in the widely used DINA (Deterministic Inputs, Noise *And" Gate) model. This 
research proposed to apply the Response Conformity Index (RCI) in the missing data imputation to set the 
threshold of imputation and to develop a method for missing response treatment for CDAs without totally 
relying on imputation. Two simulation studies were conducted to compare the performance of the proposed 
method and traditional models. Study 1 began by introducing the theoretical background and algorithm 
implementation of RFTI. Then, RFTI and RFI were compared in terms of accuracy rate of imputation for data 
with different proportions of missingness (10%, 20%, 30%, 40%, 50%) and missing data mechanisms (MIXED, 
MNAR, MAR, MCAR). This was to affirm the necessity of including RCI during imputation. Study 2 aimed to 
investigate the performance of RFTI, as well as RFI and EM algorithm in imputing missing data under different 
conditions. The manipulated design factors were identical to those in Study 1. We evaluated RFTI in terms of its 
accuracy in assessing the model attributes and item parameters. We also compared RFTI against the traditionally 
better performed EM and RFI under various design conditions to explore the advantages and conditions of using 
RFTI. 
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Results of Study 1 showed that RFTI, as compared to RFI, improved accuracy when imputation threshold 
was one. In various design conditions, RFTI imputation rate and accuracy were also better. Study 2 showed that 
RFTI outperformed other methods (RFI, EM algorithm) in accurately assessing the attribute pattern and attribute 
margin. This advantage was affected by the missing data mechanism and the proportion of missing data. Notably, 
RFTI was particularly better than other methods in handling mixed type of missing or MNAR data, and when the 
proportion of missing data was higher than 3096. However, RFTI was not any better than other methods in its 
accuracy of item parameter estimates. In most conditions, EM algorithm provided the most accurate parameter 
estimates. 

In sum, we propose a method to impute missing data in CDAs by applying machine learning methods in 
measurement models. The advantage of this new method is affirmed through its accurate assessment of attribute 
pattern and attribute margin of DINA model. Theoretically, the current study provides a missing data imputation 
approach with less assumptions, which extends the traditional methods to impute missing data in CDAs 
framework. Moreover, we investigate how to estimate the attribute pattern of students accurately through the 
responses of a few items. It sheds lights on imputing missing data due to particularly designs in assessment or 
teaching. 

Keywords missing data, cognitive diagnostic assessment, random forest threshold imputation, random forest imputation, 
expectation-maximization algorithm 


